Train Stages: Pretrain, Mid-Train(CT), SFT, RL
Mid-train的重要性
Mid-train位于Pre-train和Post-train之间,用于弥合预训练数据分布和后训练目标的差距。通过通过使用更高质量、更具针对性的数据(例如指令格式的数据)+预训练阶段相同的训练目标,来强化模型在特定领域的推理先验知识,稳定优化过程,并为后续的强化学习(RL)做好准备。
这篇论文发现[^1],在计算资源有限的前提下,将一部分计算资源从RL分配给中期训练,最终的整体效果会比全部资源用于RL更好。特别是对于难度适中的任务,“大量中期训练 + 少量RL” 的方案是最优的。中期训练奠定了坚实的“能力基石”,RL则负责最后的“冲刺和优化”。
后训练/微调/RL的必要性
大型语言模型(Large Language Models, LLMs)的出现是人工智能领域的一个重要里程碑。这些模型通过在海量的文本语料库上进行自监督预训练,掌握了强大的语言理解和生成能力。[^2]
然而,预训练的目标(如“下一个词预测”)本质上是模仿数据分布,这并不足以保证模型生成的内容完全符合人类的价值观和期望。未经对齐的LLM可能会产生不准确、有偏见、有害甚至虚构的内容。
因此,模型对齐(Alignment)应运而生。其核心目标是微调预训练模型,使其行为与人类的意图、偏好和价值观(如有帮助性、诚实性、无害性,即“3H”原则)保持一致。这是确保LLM安全、可靠地部署于现实世界的关键步骤。
为了应对对齐挑战,研究界探索了多种方法,其中基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)迅速成为主导范式。RLHF的核心思想是将人类的偏好数据转化为一个数值奖励信号,然后利用强化学习算法优化语言模型的策略(即其生成文本的方式),以最大化期望奖励。
在LLM对齐的早期探索中,研究者们建立了两种影响深远的基础范式。
- 一种是基于强化学习的PPO,它将经典的RL框架引入LLM微调,通过复杂的系统协调实现了强大的性能;
- 另一种是DPO,它通过深刻的理论洞见,将对齐问题转化为一个更简洁的监督学习问题,显著提升了训练的稳定性和效率。
为什么需要后训练?
想象一下,我们辛辛苦苦训练出了一个拥有海量知识的基础大模型。它能记住无数事实、理解复杂的语法结构,甚至具备潜在的推理能力。但这还不够!就像一个学富五车的学者,如果他不了解如何有效地与人沟通、不明白你的具体需求,或者无法根据情境调整自己的表达方式,他的学识就难以充分发挥价值。[^6]
大语言模型(LLMs)的基础模型(Base Model)在海量数据上预训练后,虽然掌握了基础能力,但它们并不能直接理解和遵循人类的复杂指令,也无法自然地与人互动,更不用说根据用户的偏好或特定任务需求来调整行为。它们可能不知道何时需要一步步推理(思维),何时需要直接给出答案(非思维),也不知道如何生成符合特定格式、长度或风格的文本。
后训练的目标是将基础模型与人类偏好和下游应用更好地对齐。简单来说,就是教模型“读懂人心”,让它知道我们想要什么,并以我们希望的方式来回应。
Qwen3的后训练尤其强调两大目标:
- 思维控制,让模型能选择是否推理以及控制推理深度;
- 以及强到弱蒸馏,利用大模型的知识高效地训练小模型。
RL定义、流程
强化学习是智能体(Agent)通过试错与环境(Environment)进行交互,学习如何做出最优决策以最大化累积奖励(Cumulative Reward)的过程。

其常规流程是一个迭代的循环:
- 感知状态(State, $S$): 智能体感知环境的当前状态 $S_t$。
- 决策动作(Action, $A$): 智能体根据其策略(Policy, $\pi$),基于当前状态 $S_t$ 选择一个动作 $A_t$。
- 环境反馈: 动作 $A_t$ 在环境中执行,环境会产生两个反馈:
- 即时奖励(Reward, $R$): 智能体获得一个即时奖励 $R_{t+1}$,用于衡量动作的好坏。
- 新状态(New State, $S’$): 环境转移到新的状态 $S_{t+1}$。
- 策略更新(Update): 智能体利用获得的奖励 $R_{t+1}$ 和状态序列 $(S_t, A_t, R_{t+1}, S_{t+1})$ 来更新其策略 $\pi$(以及可能的值函数 $V$ 或 $Q$),目的是让策略在未来能获得更高的累积奖励。
- 重复: 智能体在新状态 $S_{t+1}$ 继续下一个时间步的交互。
核心要素:
- 策略 ($\pi$): 定义了智能体在特定状态下选择动作的规则。
- 奖励信号 ($R$): 定义了RL的目标,即最大化累积奖励。
- 价值函数 ($V$ 或 $Q$): 预测一个状态或状态-动作对的长期期望累积奖励,用于指导策略的改进。
RL 如何提效
难度是数据边缘
外推泛化(Depth Generalization)指看模型能不能把学到的简单技能组合起来,解决更复杂的问题。
- 对于太简单的题目,RL是无效的,只是机械刷题、[^1]
- 对于太难的,RL也是无效的,因为模型根本学不会;
- 只有正好在模型能力边界的题目,通过合理的奖励机制,RL能够引导模型探索正确的解题路径,实现了能力边界的拓展。
泛化需要有锚点
上下文泛化(Contextual Generalization)是指模型能否实现举一反三的能力:比如模型在“动物园”的场景下学会了加法,那么它能不能把加法应用到“学校”的场景中?[^1]
研究发现:如果预训练数据中完全没有“学校”场景的题目,那么后续无论怎么用RL训练,模型都无法把加法技能迁移到“学校”场景。但是,只要在预训练中掺入极少量的“学校”场景基础题(比如只占1%),这就好像在心里埋下了一颗“种子”。
一旦有了这颗“种子”,后续的RL训练就能像浇水施肥一样,极大地激发模型的迁移能力。模型可以轻松地将从“动物园”中学到的复杂推理技能,应用到“学校”场景中。
参考文献
[^1]: On the Interplay of Pre-Training, Mid-Training, and RL on Reasoning Language Models
Train Stages: Pretrain, Mid-Train(CT), SFT, RL